在Day1-數據選擇中,有簡單介紹Numpy可以支援多維陣列處理,而在處理series資料時,常會合Pandas Dataframes相互使用。
數據集的來源相當廣泛包含各種格式,像是文字、圖像、音檔...等,儘管類型極為不同,但都可以轉換成數字集合。例如,圖像可以透過圖片明暗度(二值化)來產生二維0、1數字組合的陣列,音檔亦能透過音量的強弱來產生,因此,講解完數據的基本操作後,將會介紹如何做到特徵工程。
import numpy as np
level = ['a','b','c','d']
number = [1, 2, 3, 4]
score = [55.0, 88.5, 65.0, 10.5]
data['number'] = number
data['level'] = level
data['score'] = score
print(data)
#取得索引值為level的所有資料
data['level']
#取得第一列的資料
data[0]
#取得level的最後一筆資料
data[-1]['level']
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])
python提供的數據類型可以參考:https://docs.scipy.org/doc/numpy-1.15.0/user/basics.types.html
Day1-程式語言、模組百百種 要如何選擇?(含30天文章架構)